达观数据陈运文:数字化白领机器人和达观数据的实践
在联想之星(上海)创业市集第2站——“人工智能,价值坚守者为王”活动上,达观数据CEO陈运文结合达观数据的实践,介绍了数字化白领机器人的发展情况。
达观数据曾获联想之星投资,陈运文为联想之星创业CEO特训班第九期学员。目前,达观数据已累计完成超2亿元融资,是中国融资金额最高的文本语义分析类创业企业。
以下为陈运文分享,enjoy~
1
专注人工智能中的长文本处理
今天非常高兴和大家分享达观数据在人工智能产业中的实践,我将为大家介绍数字化白领机器人和达观数据的一些实践。
达观数据成立于2015年,总部位于上海浦东软件园,同时在北京、深圳、成都、西安设立产品和解决方案中心,专注于为客户提供文本智能化处理的软件系统。
我个人一直从事技术工作,自复旦大学计算机博士毕业后,我曾在百度、盛大、腾讯等公司工作,一直负责自然语言处理方向的技术研发。达观数据的其他高管原来也都在各大公司从事相关的技术工作,我们是一个技术氛围十分浓厚的公司。
人工智能处理的数据类型主要包括图像、语音、文本,而达观数据专注文字资料的自然语言处理(NLP,Natural Language Processing)。通俗地说,达观数据训练计算机进行文本自动化处理,让机器像人一样工作,看懂并处理文字资料,其应用面很广,涉及白领处理文档资料的方方面面。
人工智能处理文本数据一般来说可细分为两类:长文本(书面文本)、短文本(口语文本)。长文本包括用于合同、资讯、财报等较长的文本,强调文本内容理解和结构解析;短文本通常用于客服问答等较短篇幅的交互文本,强调多轮对话的交互场景。二者的技术难点、应用场景不同。
达观数据专注于人工智能中的长文本处理。在长文本处理领域,我们又细分为两大功能:自动阅读、自动写作,二者合称自然语言处理。
自动阅读(自然语言理解NLU,Natural Language Understanding):客户在电脑服务器上安装我们开发的软件机器人后,机器人可以自动阅读文件资料,然后完成自动化的审批、核对、纠错、搜索、推荐、比对、分析、评判等工作,大幅减轻人工负担。
自动写作(自然语言生成NLG,Natural Language Generation):除了阅读,机器人还可以像人一样自动完成写作工作,如自动填表、摘要写作、润色修改、写作提示、内容扩充等。
2
打造数字化白领机器人
文本智能处理的需求遍及各行各业,应用场景比较典型。目前,大量的企业和政府机构仍然依赖人工处理海量文档资料,缺乏技术有效地将工作自动化,提高效率、降低成本、提升可靠性。
我们的客户包括金融行业(银行、券商等),媒体,互联网(社交、电商、阅读等),政府与公共机构,法律(企业法务部、律师事务所等),以及科技、通信、制造等行业的大型企业。
我们为客户开发的技术产品,就是让机器人在一些典型的应用场景中,代替白领自动完成一些日常办公操作,所以我们打造的叫做数字化白领机器人。
通过预制各行各业所关心的重点字段,让机器人学习特定行业的几百篇左右的文章,并对机器人做进一步训练,机器模型就可以自动处理文字资料。
我们客户的常见需求有抽取信息、发现错漏、关联比对、审核内容、提炼观点、起草文书、核对数字、搜索内容等。
达观数据开发的系统可以代替白领完成以下文档处理工作:法律文书或合同文本、金融文本如招股或债券文本、待审批文书或行政公文、公司文档资料和业务单据、传媒文章或互联网资讯、用户评论意见或客服问题。
比如,达观数据的数字化白领机器人可以阅读招股书,抽取其中的要素并填写信息;可以审查企业年报中的大量财务数据,小到一个错别字,大到业务逻辑,都能自动完成;可以在大量的文档资料之间挖掘关联;通过对大量资料进行阅读和分析,可做内容推荐;还能开展舆情分析,通过统计分析结果,洞察用户意见。
机器人为客户的工作带来了实际的效率提升。从前银行在给贷款企业做背景调查时,需要依靠人力去国家各个部委的网站逐个查询核实该公司信息,然后写成报告。而经过训练的机器人可以自动完成这些工作并生成报告。
总体来说,我们开发出一个软件机器人,让它模拟白领工作,代替白领完成一部分日常繁琐工作。我们也在不断进化,让机器人能做越来越多复杂的工作,让数字化白领产业越来越壮大。
3
文本智能化引领人机协同的未来办公形态
一路走来,我们非常荣幸逐步获得各个方面的认可。去年,达观数据荣获2018年度“吴文俊人工智能奖”,达观数据是全国11家获奖企业之一,也是上海市唯一的获奖企业。此前,达观数据也曾获2016年度中国青年双创大赛全国总冠军。
2018年,达观数据开发的司法裁判文书自动处理和量刑自动预测系统,在最高人民法院中国法研杯竞赛中获得表彰,相关成果已发表于《清华大学学报》。在中央军委装备部举办的全国首届“军事智能 机器阅读”中,达观数据开发的文字情报自动处理系统获得表彰,机器人从大量情报数据中自动抽出人物、地点、事件等,可协助参谋自动分析情况。
同时,达观数据与国内顶尖高校联合进行科技攻关,开展前沿技术探索。达观数据与北京大学万小军教授联合成立文本智能写作前沿技术研究组;与复旦大学计算机学院联合成立文本挖掘技术联合实验室;与上海交通大学外国语学院联合成立语言智能实验室。。
达观数据提供以NLP、OCR等AI技术为大脑,以RPA为抓手的智能化数字员工解决方案,拥有强大的业务技能和场景延展性。目前,智能化数字员工已经服务于多个行业和业务场景。
展望未来文字智能化处理的应用,我们认为,未来在机械性、重复性的文字操作能力上,计算机将逐步超越人类。10年后,计算机将代替人类完成50%的基础性文字工作。未来的办公形态一定是人机协同的,人和机器人做各自擅长的事,人负责更高层的决策判断、更有想象力的工作,机器人去做重复性的基层工作。
各类企业和机构都将配备相应的计算机软件系统,而达观数据将力争成为中国文本智能化处理领域的领军企业。
相关阅读: